城市规划师越来越多地使用基于深度学习的计算机视觉模型来支持塑造城市环境的决策。这样的模型预测人们如何从例如它的安全或美丽。但是,深度学习模型的黑盒本质阻碍了城市规划师,以了解哪些景观对象有助于特别高质量或低质量的城市空间感知。这项研究调查了如何使用计算机视觉模型来提取有关人们对城市空间的看法的相关政策信息。为此,我们训练了两个广泛使用的计算机视觉架构。卷积神经网络和变压器,并应用Gradcam(一种众所周知的可解释的AI技术),以突出图像区域对模型的预测很重要。使用这些GradCAM可视化,我们手动注释与模型的感知预测相关的对象。结果,我们能够发现以前研究中用于注释的当前对象检测模型中未表示的新对象。此外,我们的方法论结果表明,变压器架构更适合与GARGCAM技术结合使用。代码可在GitHub上找到。
translated by 谷歌翻译
从视频中估算心率可以通过患者护理,人类互动和运动中的应用进行非接触健康监测。现有的工作可以通过面部跟踪在一定程度的运动下稳健地测量心率。但是,在不受约束的设置中,这并不总是可以的,因为脸部可能会被遮住甚至在相机外面。在这里,我们介绍Intensephysio:具有挑战性的视频心率估计数据集,具有逼真的面部阻塞,严重的主题运动和充足的心率变化。为了确保在现实环境中的心率变化,我们记录每个主题约1-2小时。该受试者正在用附着的摄像机进行骑自行车计(以中等强度)锻炼(中度至高强度),没有关于定位或运动的指示。我们有11个主题,大约有20个小时的视频。我们表明,现有的远程照相拍摄方法在这种情况下估计心率很难。此外,我们提出了IBIS-CNN,这是一种使用时空超级像素的新基线,它通过消除了对可见面/面部跟踪的需求来改善现有模型。我们将尽快公开提供代码和数据。
translated by 谷歌翻译
自动对象检测器的本地化质量通常通过联合(IOU)分数进行评估。在这项工作中,我们表明人类对本地化质量有不同的看法。为了评估这一点,我们对70多名参与者进行了调查。结果表明,对于以完全相同的评分而言,人类可能不会认为这些错误是相等的,并且表达了偏好。我们的工作是第一个与人类一起评估IOU的工作,并清楚地表明,仅依靠IOU分数来评估本地化错误可能还不够。
translated by 谷歌翻译
我们介绍了Amstertime:一个具有挑战性的数据集,可在存在严重的域移位的情况下基准视觉位置识别(VPR)。 Amstertime提供了2500张曲式曲目的图像,这些图像匹配了相同的场景,从街景与来自阿姆斯特丹市的历史档案图像数据相匹配。图像对将同一位置与不同的相机,观点和外观捕获。与现有的基准数据集不同,Amstertime直接在GIS导航平台(Mapillary)中众包。我们评估了各种基准,包括在不同相关数据集上预先培训的非学习,监督和自我监督的方法,以进行验证和检索任务。我们的结果将在地标数据集中预先培训的RESNET-101模型的最佳准确性分别验证和检索任务分别为84%和24%。此外,在分类任务中收集了阿姆斯特丹地标子集以进行特征评估。分类标签进一步用于使用Grad-CAM提取视觉解释,以检查深度度量学习模型中学习的类似视觉效果。
translated by 谷歌翻译
我们介绍了一种从单视图检测3D镜面的几何启发深度学习方法。我们通过明确地将3D镜几何形状作为学习作为电感来减少对大规模培训数据的需求。我们提取语义特征,计算帧内像素相关性,并为每个平面构建3D相关体积。相关体积指示输入在各种深度以其镜子类似的程度,允许我们识别给定平面是镜面平面的可能性。随后,我们将相关卷视为用于采样平面的特征描述符,并将其映射到单位半球,其中采样平面的正常呈现。最后,我们设计了多级球面卷曲,以粗糙的方式识别最佳镜面。合成和现实世界数据集的实验显示了3D镜像几何形状的好处,以提高数据效率和推论速度(最多25 FPS)。
translated by 谷歌翻译
频率信息位于纹理之间区分的基础上,因此在不同的对象之间。古典CNN架构将频率学习限制通过固定滤波器大小,缺乏明确控制它的方法。在这里,我们建立了具有高斯衍生基础的结构化接收场滤波器。然而,而不是使用预定的衍生顺序,通常导致基本函数的固定频率响应,我们学习这些。我们表明,通过学习基础的顺序,我们可以准确地学习滤波器的频率,因此适应底层学习任务的最佳频率。我们研究了分数衍生物的良好数学制剂,以在训练期间适应过滤频率。与标准CNN和我们构建的标准CNN和高斯衍生CNN滤波器网络相比,我们的配方导致参数节省和数据效率。
translated by 谷歌翻译
Modeling lies at the core of both the financial and the insurance industry for a wide variety of tasks. The rise and development of machine learning and deep learning models have created many opportunities to improve our modeling toolbox. Breakthroughs in these fields often come with the requirement of large amounts of data. Such large datasets are often not publicly available in finance and insurance, mainly due to privacy and ethics concerns. This lack of data is currently one of the main hurdles in developing better models. One possible option to alleviating this issue is generative modeling. Generative models are capable of simulating fake but realistic-looking data, also referred to as synthetic data, that can be shared more freely. Generative Adversarial Networks (GANs) is such a model that increases our capacity to fit very high-dimensional distributions of data. While research on GANs is an active topic in fields like computer vision, they have found limited adoption within the human sciences, like economics and insurance. Reason for this is that in these fields, most questions are inherently about identification of causal effects, while to this day neural networks, which are at the center of the GAN framework, focus mostly on high-dimensional correlations. In this paper we study the causal preservation capabilities of GANs and whether the produced synthetic data can reliably be used to answer causal questions. This is done by performing causal analyses on the synthetic data, produced by a GAN, with increasingly more lenient assumptions. We consider the cross-sectional case, the time series case and the case with a complete structural model. It is shown that in the simple cross-sectional scenario where correlation equals causation the GAN preserves causality, but that challenges arise for more advanced analyses.
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
AASM准则是为了有一种常用的方法,旨在标准化睡眠评分程序的数十年努力的结果。该指南涵盖了从技术/数字规格(例如,推荐的EEG推导)到相应的详细睡眠评分规则到年龄的几个方面。在睡眠评分自动化的背景下,与许多其他技术相比,深度学习表现出更好的性能。通常,临床专业知识和官方准则对于支持自动睡眠评分算法在解决任务时至关重要。在本文中,我们表明,基于深度学习的睡眠评分算法可能不需要充分利用临床知识或严格遵循AASM准则。具体而言,我们证明了U-Sleep是一种最先进的睡眠评分算法,即使使用临床非申请或非规定派生,也可以解决得分任务,即使无需利用有关有关的信息,也无需利用有关有关的信息。受试者的年代年龄。我们最终加强了一个众所周知的发现,即使用来自多个数据中心的数据始终导致与单个队列上的培训相比,可以使性能更好。确实,我们表明,即使增加了单个数据队列的大小和异质性,后者仍然有效。在我们的所有实验中,我们使用了来自13个不同临床研究的28528多个多摄影研究研究。
translated by 谷歌翻译
传统的过程挖掘技术将事件数据作为输入,其中每个事件与一个对象完全关联。对象表示过程的实例化。以对象为中心的事件数据包含与表达多个过程相互作用的多个对象关联的事件。由于传统的过程挖掘技术假设与一个对象相关的事件,因此这些技术不能应用于以对象为中心的事件数据。为了使用传统的过程挖掘技术,通过删除所有对象引用,以一种以对象为中心的事件数据来平坦。扁平过程是有损的,导致从扁平数据中提取的不准确的特征。此外,在变平时丢失了以对象事件数据的图形结构。在本文中,我们介绍了一个通用框架,用于从对象事件数据中提取和编码功能。我们在以对象为中心的事件数据上本地计算功能,从而导致准确的度量。此外,我们为这些功能提供了三个编码:基于表格,顺序和图形。尽管表格和顺序编码已在过程挖掘中大量使用,但基于图的编码是一种保留以对象事件数据结构的新技术。我们提供六种用例:为三个编码中的每个编码中的每一个提供可视化和预测用例。我们在预测用例中使用可解释的AI来显示以对象为中心的特征的实用性以及针对预测模型的基于顺序和基于图的编码的结构。
translated by 谷歌翻译